El dataset cuenta con 16 variables, una para la fecha y otra para la hora y 14 señales de sensores de gases.
Construyo una variable DateTime que luego utilizaremos como indice en un tsibble. También se aprovecha para borrar aquellos registros que tienen la variable temporal nula (al analizarlo esto resulto que eran filas vacias completas, parece un error de como se consiguió la data).
Analizamos si los gases tienen registros faltantes. Estos por defecto toman el valor -200.
## Date Time CO.GT. PT08.S1.CO. NMHC.GT.
## 0.0000000 0.0000000 0.1798653 0.0391151 0.9023191
## C6H6.GT. PT08.S2.NMHC. NOx.GT. PT08.S3.NOx. NO2.GT.
## 0.0391151 0.0391151 0.1751630 0.0391151 0.1754836
## PT08.S4.NO2. PT08.S5.O3. T RH AH
## 0.0391151 0.0391151 0.0391151 0.0391151 0.0391151
## DateTime
## 0.0000000
Me quedo con aquellos que tienen menos del 5% de valores faltantes.
#Temperatura
Analizo este porque quiero ver 1 señal y extrapolo al resto.
Arranco reemplazando nulos imputando por un moving average
Genero la descomposicion de componentes para ver si tiene tendencia y estacionalidad.
Si bien la señal tiene estas componentes vemos que tiene una frecuencia de muestreo super alta. Conviene hacer algun suavizado. Voy a hacer suavizado de Medias Moviles variando distintos K.
## date1 date2 co co_s NMHC NMHC_s c6h6 nox
## "POSIXct" "POSIXt" "numeric" "integer" "integer" "integer" "numeric" "integer"
## nox_s no2 no2_s o3_s temp RH% AH
## "integer" "integer" "integer" "integer" "numeric" "numeric" "numeric"
#cr
## The ts_aire series is a mts object with 3 variables and 9359 observations
## Frequency: 9357
## Start time: 2004 3
## End time: 2005 4
Relative humidity (RH) is a measure of how much water vapor is in a water-air mixture compared to the maximum amount possible. RH is a ratio of the humidity ratio of a particular water-air mixture compared to the saturation humidity ratio at a given temperature (dry-bulb).